Die meisten Anbieter von Suchmaschinen halten die genauen Prozesse geheim, die beim Ranking der Suchergebnisse ablaufen. Wir möchten transparent die Faktoren erklären, die die Reihenfolge der Suchergebnisse beeinflussen.
Wie die Reihenfolge unserer Suchergebnisse zustande kommt
Wozu dient das Ranking?
Bei allen Suchmaschinen ist das Ranking der Suchergebnisse von essentieller Bedeutung, um schnellstmöglich an relevante Informationen zu gelangen. Sobald Sie eine Suchanfrage stellen, wird diese mit allen vorhandenen Datensätzen abgeglichen, dem sogenannten Index. Der Suchbegriff und gewählte Filter schließen nicht passende Datensätze von vornherein aus, alle anderen werden als Suchergebnisse angezeigt.
Durch das Ranking wird dann die Reihenfolge dieser Suchergebnisse festgelegt. Es werden die Einträge mit der höchsten Relevanz für Ihre Suchanfrage identifiziert und entsprechend weit oben in der Ergebnisliste angezeigt.
Welche Faktoren beeinflussen das Ranking?
Das Ranking auf umwelt.info basiert gegenwärtig auf fünf Faktoren:
- BM25-Ranking,
- Aktualität,
- Metadatenqualität,
- Popularität,
- Status.
Anhand dieser fünf Faktoren wird für jeden Eintrag eine Punktzahl (Score) ermittelt. Je höher der Gesamtscore ausfällt, desto weiter oben wird ein Eintrag in der Ergebnisliste positioniert.
Dieser Algorithmus wird in den meisten Suchmaschinen verwendet. Er vergleicht, wie häufig ein Suchbegriff innerhalb eines Datensatzes im Verhältnis zum gesamten Index auftritt und berücksichtigt dabei auch die Länge des jeweiligen Suchergebnisses. Wir verwenden den Algorithmus in der Form, wie er in der tantivy-Programmbibliothek implementiert ist. Gegenwärtig werden Titel, Beschreibung, Region, Schlagworte, Herkunft, Typ, Daten und Messwerte von allen Einträgen in unserem Index durchsucht.
Kommt ein Suchbegriff im Titel vor, wird dies doppelt gewertet, kommt er in der im Eintrag genannten Region oder in den Schlagworten vor, führt das zu einer dreifachen Wertung, wohingegen die Felder Beschreibung, Herkunft, Typ, Messwerte und -methoden nur einfach gewertet werden. Weiterhin wird eine möglichst hohe Übereinstimmung zwischen den eingegeben Suchbegriffen und dem jeweiligen Eintrag explizit berücksichtigt. Je mehr Suchbegriffe im Eintrag vorhanden sind, desto besser wird dieser bewertet, indem der Ranking-Score mit der Anzahl der im Eintrag vorhandenen Suchbegriffe multipliziert wird. Wird z.B. nach "Grundwasser Nitrat Sachsen" gesucht, wird der Score eines Sucheintrags, der alle drei Wörter enthält, mit drei multipliziert.
Unser Ranking zeigt bevorzugt neue Datensätze an. Dazu verwenden wir zwei Faktoren: Zum einen berücksichtigen wir, vor wie vielen Tagen der Datensatz veröffentlicht wurde, zum anderen, ob sich der Datensatz innerhalb eines Zeitfensters der letzten 6 Jahren befindet. Diese beiden Faktoren ergeben die Aktualität des jeweiligen Datensatzes. Damit sollen Nutzende bevorzugt neuste und relevante Informationen finden.
Die Bewertung folgt den FAIR-Prinzipien und soll eine möglichst gute Auffindbarkeit und Nachnutzbarkeit der Datensätze gewährleisten. Die konkrete Berechnung und die Bedeutung erklären wir in unserem Beitrag über die Metadatenqualität.
Je öfter ein Suchergebnis bisher aufgerufen wurde, desto höher fällt die Punktzahl für den Eintrag aus. Aktuelle Zugriffe werden stärker gewertet als weiter zurückliegende Zugriffe (basierend auf einer Exponentialfunktion).
Wir unterscheiden die Kategorien obsolet, aktiv, in Entwicklung und in Planung. Diese Bezeichnungen werden in der Regel von den Anbietern selbst vergeben. Der Regelfall ist aktiv, das heißt der Eintrag ist aktuell; in diesem Fall bleibt der Score unverändert. Bei obsoleten Einträgen gehen wir also von veralteten Informationen aus, die wir entsprechend niedriger bewerten.
Wie werden die Faktoren gewichtet?
Eine hohe Übereinstimmung des Eintrags mit der Suchanfrage (BM25) beeinflusst das Ranking am stärksten, gefolgt von der Aktualität des Eintrags. Die Faktoren Metadatenqualität und Popularität wirken sich nur geringfügig auf die Positionierung aus. Die genaue Implementierung können Sie auch in unserem GitLab finden.
- BM25: 85,9%
- Aktualität: 8,9%
- Metadatenqualität: 2,8%
- Popularität: 2,4%
Liegen beispielsweise zwei Einträge beim BM25-Score nah beieinander, wird ein aktueller Eintrag mit höherer Metadatenqualität oder Popularität tendenziell weiter oben erscheinen. Andererseits soll vermieden werden, dass nicht aktuelle Datensätze mit hoher Qualität und Popularität zu stark priorisiert werden. Das könnte dazu führen, dass Einträge mit einer verhältnismäßig geringen Übereinstimmung mit der Suchanfrage dennoch weit oben positioniert werden.
Der Status ist in den meisten Fällen standardmäßig auf aktiv gesetzt, wodurch das Ranking nicht beeinflusst wird. Wir nutzen den Status, um obsolete Einträge abzuwerten. Diese werden mit 0.6 multipliziert, um sie entsprechend niedriger zu platzieren. So erhalten Nutzende eher aktive und damit relevantere Einträge weiter oben in der Ergebnisliste. Ebenso werden Einträge, sich in Entwicklung oder in Planung befinden leicht abgewertet, indem sie mit 0.95 multipliziert werden.
Wie können Sie dazu beitragen das Ranking zu verbessern?
Wenn Sie Daten für umwelt.info bereitstellen und daran interessiert sind, dass Ihre Einträge ein möglichst gutes Ranking erhalten, empfiehlt es sich vor allem auf die Metadatenqualität Ihrer Einträge zu achten. Hierzu zählen beispielsweise das Bereitstellen der Daten über maschinenlesbare Schnittstellen und Angaben zur Lizenz, um eine einfache Nachnutzbarkeit zu gewährleisten. Nähere Informationen finden Sie in unserem Artikel zum Thema Metadatenqualität. Wenden Sie sich bei Fragen dazu gerne an uns. Wir beraten Sie gerne.
Es ist uns ein zentrales Anliegen, dass Sie möglichst relevante Suchergebnisse zu Ihren Anfragen zu Umwelt- und Naturschutzbelangen erhalten. Deshalb entwickeln wir unser Ranking stetig weiter. Auch unser Index wird stetig erweitert, indem wir immer neue Datenquellen anbinden, um möglichst viele Bereiche des Umwelt- und Naturschutzes umfangreich abzudecken. Sollten Sie bei Ihrer Suche wenig relevante oder unpassende Ergebnisse erhalten oder haben Sie sonstige Anmerkungen zu Ihrer Suchanfrage, kontaktieren Sie uns gerne. Wir freuen uns auf Ihr Feedback.